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摘要 : [目的 /意义 ] 大 数据 环境 下 ,科学 数据 管理 研究 具有 重要 的 理论 和 现实 意义 。 对 科学 数据 管理 研究 
脉络 进行 可 视 化 分 析 , 可 以 为 我 国 该 主题 研究 提供 参考 与 借鉴 。 [ 方法/ 过程] 基于 WoS 和 Google Scholar ,利用 
Citespace , Ucinet, TDA 等 分 析 工 具 ,探析 国际 学 术 界 科学 数据 管理 研究 发 展 的 演进 过 程 ,全 面 揭示 科学 数据 管 
理 研究 的 历史 、 现 状 和 发 展 方向 。[ 结果 /结论 ] 从 时 间 分 布 图 谱 、 空 间 分 布 图 谱 、 主 题 演进 图 谱 和 知识 基础 图 
谱 4 个 维度 反映 科学 数据 管理 的 研究 现状 ,并 结合 国内 相关 研究 及 发 展 状况 提出 相关 建议 。 
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可 视 化 分 析 


引言 
一 随 着 信息 技术 不 断 深入 地 发 展 ,科学 研究 已 经 全 
看 迎 和 到 “第 四 范式 ” ,各 个 学 科 的 科学 数据 日 益 丰富 
兴 恩 迅速 累积 ,共同 构成 了 科研 活动 的 大 数据 环境 。 
种 学 数据 作为 具有 重要 科研 价值 .社会 价值 及 经 济 价 
从 的 战略 性 资源 ,其 管理 和 利用 已 经 被 国内 外 各 级 政 
府 狂 科研 机 构 高 度 重视 。2002 年 ,我 国 科技 部 开始 实 
施 5 和 家 科学 数据 共享 工程 """ ,迄今 为 止 已 经 在 资源 
环 锯 .农业 、 人 口 与 健康 等 多 个 学 科 领 域 开展 了 科学 数 
据 管理 与 共享 工作 ,为 我 国 科 学 数据 管理 工作 的 深入 
开展 奠定 了 良好 基础 。2015 年 ,国务 院 印 发 《促进 大 
数据 发 展 行动 纲要 》51 ,从 顶层 设计 的 角度 提出 了 我 国 
实施 大 数据 发 展 的 战略 部 署 ,是 指导 我 国 科学 数据 管 
理 与 利用 的 纲领 性 文件 。 

一 般 认 为 ,科学 数据 是 指 人 类 在 认识 世界 和 改造 
世界 的 科技 活动 中 通过 实验 观测 .调查 等 方式 所 产生 
的 基础 性 原始 数据 ,以 及 按照 特定 的 需求 加 工 产生 的 
数据 集 和 相关 信息 "。 在 大 数据 背景 下 ,科学 数据 的 
范畴 发 生 了 很 大 的 变化 ,广义 的 科学 数据 不 仅 包 括 自 
然 科 学 领域 的 数据 ,同时 也 包括 人 文 社会 科学 领域 研 
究 中 产生 的 各 类 数据 ,甚至 还 包括 科研 工作 者 的 个 人 


域 分 布 广泛 .数据 结构 多 样 .数据 共享 困难 等 特点 , 因 
此 科学 数据 管理 的 研究 和 实践 活动 对 整个 社会 .科研 
机 构 或 者 科研 人 员 来 说 都 具有 重要 的 意义 。 
近年 来 ,国内 外 学 术 界 从 不 同 角 度 对 科学 数据 
理 进行 了 研究 ,其 关注 点 主要 集中 在 以 下 两 个 方面 :QD 
对 美国 英国 澳大利亚、 加拿大 等 开展 科学 数据 管理 
工作 较 早 国家 的 成 功 经 验 进 行 分 析 与 借鉴 。 刘 桂 锋 等 
选取 斯 坦 福 大 学 、 哥 伦比 亚 大 学 和 华盛顿 大 学 3 所 高 
校 作为 样本 ,对 美国 高 校 中 图 书馆 参与 科学 数据 管理 
的 实践 进行 了 分 析 与 探讨 ”; 司 莉 和 辛 娟 娟 利用 内 容 
分 析 法 对 英美 20 所 大 学 颁布 的 科学 数据 管理 与 共享 
政策 进行 了 比较 和 分 析 ,并 对 我 国 制定 相关 政策 提出 
了 建议 ”。@@ 对 基础 设施 .服务 需求 .资金 来 源 等 科学 
数据 管理 的 业务 实践 等 方面 进行 调研 与 分 析 。 唐 燕 花 
通过 案例 分 析 法 探究 高 校 开 展 科学 数据 管理 服务 的 主 
要 构成 要 素 , 并 根据 这 些 实践 要 素 和 国内 高 校 开 展 科 
学 数据 管理 服务 的 现状 提出 有 效 建议 ; 卫 军 朝 和 张 
春芳 选取 国内 外 10 余 个 科学 数据 管理 平台 ,通过 对 建 
设 现状 、 建 设 目 标 、 数 据 来 源 \ 经 费 情况 等 多 个 维度 进 
行 横向 对 比 ,探究 了 不 同 平台 之 间 的 差距 ,发 现 了 我 国 
科学 数据 管理 实践 中 值得 借鉴 和 参考 的 经 验 ”。 纵 观 
已 有 的 研究 成 果 可 以 发 现 ,目前 学 术 界 对 科学 数据 管 


n 


数据 、 互 联网 上 的 各 种 数据 等 。 科 学 数据 具有 和 学科 领 


理 研 究 主 要 为 定性 研究 ,大 部 分 侧重 于 对 国外 单个 或 
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多 个 机 构 开 展 科学 数据 管理 实践 的 调查 与 分 析 ,无 法 
从 全 局 范围 内 展示 国内 外 科学 数据 管理 的 研究 现状 。 
因此 ,笔者 采用 科学 计量 学 方法 ,利用 Citespace , Uci- 
net TDA 等 多 种 数据 分 析 和 可 视 化 工具 ,更 加 系统 地 
从 数据 维度 反映 世界 各 国 在 科学 数据 管理 领域 的 研究 
现状 ,以 期 为 我 国 科学 数据 管理 研究 和 实践 提供 参考 
与 借鉴 。 


2 科学 数据 管理 可 视 化 方法 体系 设计 


及 实现 


2.1 可 视 化 方法 体系 框架 

为 了 更 加 全 面 地 分 析 科 学 数据 管理 领域 的 研究 现 
状 ,笔者 利用 图 1 的 方法 体系 框架 从 多 个 角度 和 维度 
E E E A 


sa 


科学 数据 管理 研究 现状 及 可 视 化 分 析 
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NJ 结果 分 析 


N 
S”! 科学 数据 管理 的 可 视 化 分 析 方 法 体系 框架 


S< 首 先 ,根据 研究 主题 ,构建 “科学 数据 管理 " 的 检 
索 坑 。 为 了 尽 可 能 全 面 地 展示 科学 数据 管理 的 研究 现 
状 = 选用 国际 核心 学 术 期 刊 数 据 库 Web of Science 中 的 
SESC 和 A&HCI 作为 数据 来 源 库 ,利用 "seientifi 
data management" " scientific data curation” “research data 


curation "等 相关 检索 词 作为 主题 词 进行 检 


Bi 


索 , 检 索 时 间 截 至 2017 年 11 月 20 日 ,排除 40 
^F Z| | M M^ ya. as 下 35 
误 检 后 共 获 得 科学 数据 管理 研究 论文 336 5 
f o " 25 


其 次 ,利用 Thomson Data Analyzer 等 数 $ is 
据 分 析 工 具 对 336 篇 研究 论文 进行 规范 化 5 
处 理 ,包括 剔除 无 效 关键 词 .合并 相似 关键 ss 
词 构建 关键 词 共 现 和 矩阵 规范 研究 机 构 名 
称 、 合 并 同一 机 构 的 不 同 表现 形式 等 。 

再 者 ,对 科学 数据 管理 领域 的 知识 产 出 
进行 可 视 化 展示 与 分 析 , 包 括 时 间 分 布 图 谱 、 空 间 分 布 
图 谱 .主题 演进 图 谱 及 知识 基础 图 谱 4 个 维度 。 

2.2 ”可视化 方法 实现 机 制 
以 规范 化 处 理 后 的 336 篇 研究 论文 及 其 引文 数据 
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为 基础 ,从 以 下 4 个 方面 实现 科学 数据 管理 研究 的 可 
视 化 展示 与 分 析 : 

首先 ,绘制 科学 数据 管理 研究 的 时 间 分 布 图 谱 ,从 
时 间 序 列 维度 展示 该 主题 的 研究 足迹 ,分 析 其 知识 产 
出 的 发 展 趋势 。 

其 次 ,绘制 科学 数据 管理 的 空间 分 布 图 谱 , 从 国家 

和 机 构 两 个 层面 展示 该 主题 科研 成 果 在 空间 上 的 分 布 
情况 ,识别 不 同 国家 不同 科研 机 构 竞 争 优 势 。 
再 者 ,绘制 科学 数据 管理 的 主题 演进 知识 图 谱 。 
利用 Ucinet 对 高 频 关键 词 进行 共 现 分 析 , 展 示 科 学 数 
据 管理 研究 的 知识 网 络 ;利用 Citespace 绘制 关键 词 时 
区 视图 ,把 握 研 究 主题 随时 间 的 变化 趋势 ;利用 内 容 分 
析 法 对 研究 热点 进行 深入 剖析 ,总 结 归 纳 科 学 数据 管 
理 研 究 的 主题 分 布 。 

最 后 ,绘制 科学 数据 管理 的 知识 基础 图 谱 。 利 用 
Citespace 对 该 主题 研究 的 引文 共 被 引 情况 进行 聚 类 ， 
通过 知识 基础 图 谱 展 示 科 学 数据 管理 主题 的 理论 基 
础 ;并 利用 Google Scholar 对 该 主题 研究 的 高 被 引 参 考 
文献 做 进一步 深入 分 析 , 了 解 科 学 数据 管理 研究 的 核 
心 知识 基础 。 


3 ”科学 数据 管理 的 知识 图 谱 分 析 


3.1 ”时间 分 布 图 谱 

时 间 分 布 图 谱 能 够 从 时 间 维 度 展现 科学 数据 管理 
研究 的 总 体 图 景 ,识别 该 主题 研究 的 发 展 历程 和 发 展 
趋势 。 因 此 ,对 336 篇 科学 数据 管理 研究 论文 进行 统 
计 分 析 , 其 时 间 分 布 图 谱 如 图 2 所 示 ( 因 检 索 时 间 截 至 
2017 年 11 月 20 日 ,2017 年 论文 数量 暂 不 能 代表 全 年 
趋势 ) : 


aso 快速 发 展期 


-初步 探索 期 
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图 2 科学 数据 管理 研究 时 间 分 布 图 谱 


从 图 2 可 以 看 出 ,学 术 界 对 该 主题 的 关注 程度 随 
着 时 间 发 展 不 断 提 高 ,知识 产 出 数量 呈现 出 指数 增长 
趋势 。 科 学 数据 管理 的 研究 足迹 按照 时 间 序 列 可 以 划 
分 以 下 3 个 阶段 : 
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(1) 初 步 探索 期 (论文 数量 <5 篇 ) :1970 - 2002 
年 。 在 初步 探索 期 ,科学 数据 管理 主题 的 知识 产 出 数 
量 较 少 ,论文 数量 低 于 5 篇 。 该 主题 研究 最 早 可 以 追 
WF] 1970 年 ,随后 直到 2002 年 的 30 多 年 时 间 里 ,在 
航空 航天 工程 ”环境 科学 ”化 学 '” 生物 医药 "”、 
计算 机 科学 '” 等 多 个 学 科 领 域 都 对 科学 数据 管理 主 
题 进行 了 探索 性 研究 。 

(2) 稳定 发 展期 (5 篇 < 论文 数量 < 15 篇 ) :2003 
-2011 年 。2003 年 10 月 ,德国 马 普 学 会 召开 柏林 会 
议 并 发 布 《 关 于 自然 科学 与 人 文科 学 知识 开放 获取 的 
柏林 宣言 》, 包 括 中 国 在 内 的 多 个 国家 签署 了 “柏林 宣 
言 ”以 支持 科学 研究 成 果 和 原始 科学 数据 的 开放 获取 ; 
2004 年 1 月 ,世界 经 济 合作 与 发 展 组 织 ( Organization 
for-Economic Co-operation and Development ,OECD ) 的 34 
Az 国 签署 了 科技 政策 委员 会 发 布 的 4 开放 获取 公 


南非 ,7 
荷兰 ，8 
意大利 ，9 

法 国 ，11 


加 拿 大 ，17 


3 ”科学 数据 管理 的 国家 分 布 图 谱 


从 国家 层面 来 看 ,美国 在 科学 数据 管理 主题 领域 
的 知识 产 出 总 量 遥 遥 领 先 ,其 论文 数量 占 比 约 为 52. 
1% ,这 与 美国 政府 基金 资助 机 构 、 科 研 机 构 及 科研 人 
员 长 久 以 来 对 科学 数据 政策 制定 、 科 学 数据 资源 管理 
等 相关 活动 高 度 重视 密切 相关 。 除 美国 外 ,英国 、 德 
E 澳大利亚 也 在 科学 数据 管理 领域 发 表 了 大 量 的 研 


共 痪 助 研究 数据 的 宣言 》 ,明确 了 科学 数据 开放 的 范围 
利 定 义 。 随 着 一 系列 科学 数据 管理 政策 的 发 布 ,科学 
数 锯 管理 研究 进入 稳定 发 展期 ,这 一 阶段 的 知识 产 出 
能 鸡 相 比 初步 探索 期 有 了 较 大 幅度 的 提升 。 

(3 ) 快 速 发 展期 (论文 数量 > 20 篇 ) :2012 -2017 
国 国家 自然 科学 基金 委员 会 (National Science 
Fóundation , NSF) F 2010 年 提出 申请 NSF 资助 项 目 必 
Alae REIRI ;澳大利亚 研究 理事 会 ( Aus- 
ta Research Council, ARC) 和 国家 卫生 与 医学 研究 
HES ( National Health and Medical Research Council, 
NHMRC) 分 别 于 2012 年 2013 年 对 科研 资助 项 目的 研 
究 成 果 提 出 管理 和 共享 要 求 ;英国 研究 理事 会 (Re- 


究 成 果 。 根 据 调查 ,以 上 3 个 国家 在 科学 数据 资源 的 
建设 规模 注册 或 加 入 世界 数据 系统 (World Data Sys- 
tem, WDS) 和 DataCite 等 科学 数据 国际 重要 组 织 、 建 设 
全 球 性 的 科学 数据 仓储 系统 ( 如 Re3data. org) ”等 方 
面 均 具有 较 大 的 优势 。 同 时 由 图 3 可 以 看 出 ,我 国 虽 
然 在 科学 数据 管理 领域 取得 了 一 定数 量 的 成 果 , 但 是 
与 美国 英国、 德国 等 发 展 较 早 的 科学 数据 强国 相 比 来 
说 ,还 存在 较 大 的 差距 。 

为 了 进一步 了 解 我 国 与 数据 强国 的 科研 机 构 之 间 
存在 的 发 展 差异 ,从 知识 产 出 能 力 和 学 术 影 响 力 两 个 
角度 对 科学 数据 管理 研究 的 核心 科研 团体 进行 分 析 。 


Bi 


sedróh Councils UK, RCUK) F 2011 年 要 求 受 资助 项 目 
在 不 损害 知识 产权 的 情况 下 对 科学 数据 实施 共享 ; 
2014 年 ,中国 科 学 院 (Chinese Academy of Sciences, 
CAS) 和 国家 自然 科学 基金 委员 会 (National Natural 
Science Foundation of China, NSFC) 也 分 别 发 布 了 科研 
项 目 成 果 的 开放 获取 声明 。 科 学 基金 有 利于 科研 人 员 
创新 思想 、 获 取 资 源 、 合 作 交 流 , 对 科学 研究 活动 具有 
巨大 的 支持 作用 ,能 够 促进 科学 研究 跨越 式 的 发 展 。 
在 众多 基金 政策 的 影响 下 ,科学 数据 管理 的 研究 进入 
快速 发 展期 ,科研 产 出 数量 呈现 出 爆炸 性 增长 趋势 。 
3.2 空间 分 布 图 谱 

对 科学 数据 管理 研究 领域 的 国家 和 机 构 进行 调查 
与 分 析 , 可 以 从 空间 角度 识别 不 同 国家 和 科研 机 构 在 


度 中 心性 可 以 测量 机 构 合作 网 络 中 某 个 机 构 与 其 他 所 
有 机 构 相 互联 系 的 程度 ,计算 公式 如 下 所 示 : 

Co(N;) = X5. x; (7) 公式 (1) 
其 中 ,C, (NN;) 表 示 机 构 i 的 度 中 心性 ,g 表示 科研 
HASA, Dia %; 表 示 机 构 i 与 其 他 g -1 个 j 机构 
直接 进行 合作 的 文章 数量 。 论 文 数量 越 多 ,证 明 机 构 
在 科学 数据 管理 领域 的 知识 产 出 能 力 越 强 ;而 度 中 心 
性 越 高 ,证明 该 机 构 在 科学 数据 管理 领域 的 学 术 影响 
力 越 大 。 选 取 发 文 量 在 5 篇 以 上 的 学 术 机 构 进行 度 中 
心性 计算 ,结果 见 表 1 。 

由 表 1 可 以 看 出 ,美国 国家 航空 航天 局 (NASA ) 是 
在 科学 数据 管理 领域 发 表 论 文 数量 最 多 的 机 构 ,NASA 
最 早 在 1993 年 3 月 就 为 每 个 科学 研究 项 目 制定 了 项 


Bi 


该 领域 的 竞争 优势 ,了 解 各 机 构 在 该 领域 的 合作 和 交 
流 情况 ,能 够 为 我 国学 术 界 研究 科学 数据 管理 提供 参 
考 和 借鉴 。 如 图 3 所 示 : 


目 数 据 管 理 计 划 (Project Data Management Plan, 
PDMP) ” ,通过 对 各 级 各 类 科学 数据 进行 管理 和 存 
F4 ,为 企业 ,学 术 界 以 及 公众 提供 数据 产品 .数据 信息 
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X1 科学 数据 管理 领域 核心 机 构 分 布 的 高 频 关键 词 进行 共 现 分 析 , 可 以 厘清 科学 数据 管理 
序号 学 术 机 构 论文 量 (篇 ) 度 中 心性 ”国家 研究 的 发 展现 状 。 利 用 TDA 软件 对 336 篇 科学 数据 
美国 国家 航空 航天 局 12 6.000 XE 管理 研究 论文 的 关键 词 进 行 清洗 ,并 提取 核心 关键 词 
2 谢 非 尔 德 大 学 1 6.000 XE 构建 关键 词 共 现 和 矩阵 ,使 用 Ucinet 对 核心 关键 词 共 现 
i oom ME dics 矩阵 进行 可 视 化 分 析 , 结 果 见 图 4。 在 关键 词 共 现 知 
Ne ; du. hn 识 图 谱 中 ,节点 的 大 小 用 度 中 心性 表示 ,节点 越 大 代表 
中 国 科学 院 Loo d 该 关键 词 在 科学 数据 管理 研究 网 络 中 的 影响 越 大 ,是 

7 法 国 国家 科学 研究 院 7 0.000 ”法 国 该 领域 的 研究 热点 。 
8 匹 效 堡 大 学 6 7.000 ”美国 从 图 4 可 以 看 出 ,数据 管理 (data management ) W} 
9 芝加哥 大 学 6 400 XE 究 数 据 管理 (research data management ) ,数据 共享 (da- 
m inn Quot dua : 3.000, S ta sharing) .数据 监管 (data curation) 4 个 关键 词 居于 整 
个 知 识 网 络 的 中 心 位 置 ,是 科学 数据 管理 研究 中 最 核 
3 punto F "I 心 的 热点 问题 。 其 中 ,数据 管理 作为 词 频 及 中 心性 最 
TT 哥 廷 根 大 学 5 0.000 德国 高 的 关键 词 ,其 研究 范围 非常 广泛 ,研究 内 容 贯 穿 数据 
& 爱丁堡 大 学 5 6.000 英国 共享 数据 处 理 数据 存储 、 数 据 获 取 、 数 据 分 析 等 科学 
6 美国 国家 大 气 研究 中 心 E 6.000 M 数据 生命 活动 全 周期 ,并 且 拓 展 到 系统 生物 学 e RAS 


洒 数 据 使 用 工具 等 多 种 服务 ,促进 EUER 


pe Open data 2 
TREE 数 据 的 WF 究 5 应 用 o 同 时 可 人 了 Products 

á E " ze 3t ML B "e-infrastructure 3 N NS "Science Operations "i Systeme mation management 
vog A 美 国 约 "d EH ER K d^ 是 科 RS n access — — — institutional reposteria 7 px cal scene 

am x să : ` à de 

沟 现 所 管理 领域 与 其 他 科研 机 构 合作 “| qi y, t tm 

pa AN E & Data management À R lorea » 
TRQ AZ B3 rep e, 2T RE AER : e Nema unrsty rw 

— Metadata Database management systems “interdisciplinary 

M SN fes; t M NE Ri h data t T ATS 7) ibili 
PERQUE (Johns Hopkins MET. S Ae MR 

. . . 4 i " electrophysiology 
nid fsity Data Management Services, ublicatión caes NEST er Mia i yh data analysis 

] ` d F d ratory Information Management System 
JHEDMS) ”可 以 为 科研 人 员 和 研究 FUSCE Lv Mn 
H MA Y Js SE Par ser S T persistent identifier "Data quality E iata tran dard 
机 构 提 供 科学 数据 管理 计划 咨询 、 科 Biomedical research 
Research 

EA U p] 2 E UE ESSERE: 
学 数据 归档 .科学 数据 管理 培训 等 多 
种 全 性 化 服务 ,并 且 与 伊利 诺 伊 香槟 4 ”科学 数据 管理 核心 关键 词 共 现 知识 图 谱 


分 先 , 德 克 萨 斯 大 学 休斯顿 健康 科学 
中 心 亚利桑那 州立 大 学 、 美 国 BioFortis 公司 等 多 个 机 
构 进行 了 合作 研究 。 

综合 图 3 和 表 1 可 以 得 出 ,美国 和 英国 不 仅 是 科 
学 数据 管理 领域 的 数据 大 国 ,同时 也 是 数据 强国 。 在 
法 律 法 规 .基金 资助 条 件 . 科 研 机 构 数据 管理 政策 等 多 
种 内 外 部 因素 的 共同 驱动 下 ,产生 了 以 美国 航空 航天 
局 . 谢 菲 尔 德 大 学 .牛津 大 学 .约翰 霍 普 金 斯 大 学 .哈佛 
大 学 等 一 系列 著名 高 校 及 科研 机 构 为 代表 的 核心 科研 
团体 。 而 我 国 仅 有 中 国 科学 院 和 武汉 大 学 两 个 机 构 在 
科学 数据 管理 领域 发 表 了 5 篇 以 上 国际 核心 期 刊 论 
文 ,无 论 是 在 知识 产 出 能 力 还 是 在 学 术 影响 力 方面 都 
与 数据 强国 存在 较 大 的 差距 。 
3.3 ”主题 演进 图 谱 
3.3.1 关键 词 共 现 知识 图 谱 ”对 科学 数据 管理 研究 


理 、 遥 感 . 社 会 科学 神经 信息 学 `. 电 生理 学 . 跨 学 科 等 
全 学 科 领 域 ;研究 数据 管理 作为 科学 数据 管理 的 子 范 
畴 ,其 研究 内 容 除了 数据 保存 .数据 监管 ,数据 共享 等 
普遍 适用 的 数据 管理 技术 与 方法 外 ,更 多 地 从 学 术 图 
书馆 大 学 .图 书馆 角色 研究 支持 .个 人 信息 管理 、 实 
验 室 信息 管理 系统 等 科研 活动 支撑 角度 进行 研究 ; 科 
学 数据 共享 是 促进 学 术 交 流 、 提 高 科学 数据 利用 效率 
的 重要 手段 ,数据 共享 也 是 科学 数据 管理 研究 中 词 频 
和 中 心性 较 高 的 关键 词 ,数据 共享 与 开放 获取 、 数 据 发 
现 \ 开 放 数 据 数据 素养 数据 引用 、 数 据 保存 等 关键 词 
紧密 关联 ;数据 监管 是 E-science 环境 下 科学 数据 长 期 
保存 .管理 和 利用 的 新 兴 研 究 热点 ,因此 数据 监管 与 数 
据 保存 数字 存储 ` 数 据 整合 .存档 ,数据 仓库 、 了 -sci- 
ence 等 关键 词 产 生 了 高 频 共 现 ,为 科学 数据 管理 研究 
与 应 用 提供 了 数据 保障 。 


114 


ChinaXiv 合 作 期 刊 


JOE, A, WEF. 多 维度 视角 下 国外 科学 数据 管理 的 研究 脉络 分 析 []]. 图 书 情报 工作 ,2018 ,62(13):111 - 118. 


3.3.2 研究 前 沿 时 区 知识 图 谱 ”高 频 关键 词 时 区 图 
谱 可 以 从 时 间 维 度 展示 科学 数据 管理 研究 热点 演进 和 
变化 趋势 。 利 用 Citespace 绘制 核心 关键 词 时 区 图 谱 ， 
结果 如 图 5 所 示 : 


C 人 由 图 5 可 以 看 出 ,在 科学 数据 管理 研究 的 3 个 发 
民 障 段 中 ,科研 人 员 对 该 主题 呈现 出 不 同 的 关注 点 : 
0 在 初步 探索 期 (1970 -2002 年 ) ,科学 数据 管理 研 
究 知 识 产 出 数量 较 少 ,研究 内 容 集 中 于 以 信息 技术 为 
载 化 的 科学 数据 管理 系统 的 开发 与 利用 ,例如 对 数据 
He database) A A6 (system) .元 数据 (metadata ) 等 问题 
的 研究 。 该 阶段 研究 虽然 处 于 初步 发 展期 ,但 却 在 研 
莹 济 围 上 得 到 充分 扩展 ,例如 环境 科学 .航空 航天 工 
程 S 化 学 .生物 医药 等 多 个 自然 科学 领域 都 在 科学 数据 
管理 中 做 出 了 探索 性 研究 。 

中 进入 稳定 发 展期 (2003 -2011 年 ) 后 ,科学 数据 管 
理 古 完 论文 数量 出 现 了 大 幅度 增长 ,研究 内 容 进一步 
向 朋 深 方向 发 展 ,此 阶段 的 科学 数据 管理 研究 突破 数 
据 管理 系统 的 局 限 , 开 始 向 数据 共享 (data sharing) 、 数 
据 监 管 (data curation ) 数据 收集 (data collection ) 等 涉 
及 科学 数据 管理 生命 全 周期 的 方向 发 展 ;研究 范围 也 
开始 突破 自然 科学 领域 范畴 ,人 文 社会 科学 领域 以 及 
跨 学 科 领 域 的 科学 数据 管理 开始 受到 研究 人 员 的 关 
注 。 

在 快速 发 展 时 期 (2012 - 2017 年 ) ,科学 数据 管理 
在 前 两 个 阶段 的 基础 上 ,不 仅 沿 着 科学 研究 维度 纵深 
发 展 ,并 且 也 向 着 科研 支撑 维度 横向 发 展 。 例 如 数据 
共享 (data sharing) 数据 仓库 (data repository ) 依然 是 
科学 数据 管理 研究 的 重点 内 容 , 同时 学 术 图 书馆 (aca- 
demic library) 机 构 知 识 库 (institutional repository ) , f 
WEF ( research support) 等 与 科学 数据 管理 服务 相关 

的 主题 也 成 为 该 阶段 研究 的 重点 内 容 。 

3.3.3 ”研究 热点 主题 分 布 ”核心 关键 词 共 现 知 识 图 


谱 和 时 区 知识 图 谱 在 一 定 程度 上 展示 了 科学 数据 管理 
领域 热点 的 分 布 和 演进 情况 。 为 了 更 加 深入 和 全 面 地 
了 人 解 研 究 热 点 主题 分 布 ,通过 对 科学 数据 管理 研究 的 
主题 词 ,学科 分 布 等 信息 进行 定量 与 定性 综合 分 析 , 将 
该 领域 研究 分 为 4 个 方面 。 下 文采 用 内 容 分 析 法 对 科 
学 数据 管理 领域 的 4 大 研究 主题 进行 具体 的 论述 : 

(1) 基 于 管理 主体 的 科学 数据 管理 研究 。 对 336 
篇 研究 论文 的 题名 .关键 词 词 频 .摘要 等 进行 内 容 分 析 
可 以 看 出 ,对 各 级 管理 主体 的 科学 数据 管理 活动 进行 
分 析 是 该 领域 最 为 集中 的 研究 内 容 之 一 。 基 于 管理 主 
体 的 科学 数据 管理 研究 包括 跨国 组 织 、 国 家 、 国 内 联盟 
及 学 术 机 构 4 个 层面 。 J. Wei 等 人 调查 了 在 大 数据 环 
境 下 ,全 世界 最 大 的 社会 科学 数据 中 心 ICPSR 如 何 存 
fi 监管 和 共享 社会 科学 数据 ”” ;J， Kim 利用 问卷 法 
调查 了 190 名 韩国 教授 对 科学 数据 管理 与 共享 的 看 
法 ,以 期 为 韩国 制定 数据 政策 及 数据 管理 实践 提供 参 
考 与 借鉴 ;J. Dierkes 等 介绍 了 哥 廷 根 玉 -Research HX 
盟 向 其 成 员 机 构 提 供 基于 科学 数据 生命 周期 的 数据 管 
Og AE M. Wit 介绍 了 普 渡 大 学 如 何 收集 和 
管理 科学 数据 ,从 而 更 好 地 为 多 个 学 科 的 科研 活动 提 
供 支 持 服 务 。 

(2) 基于 学 科 的 科学 数据 管理 研究 。 根 据 科 学 数 
据 的 定义 可 以 看 出 ,早期 的 科学 数据 主要 产生 在 自然 
科学 领域 ,对 科学 数据 管理 的 研究 也 集中 在 生物 学 、 医 
学 .气象 学 ` 地球 科学 等 学 科 。 随 着 大 数据 技术 的 发 
展 , 科 学 数据 的 范畴 有 了 很 大 变化 ,科学 数据 管理 研究 
扩展 到 了 语言 学 、 人 口 学 、 心 理学 等 人 文 社会 科学 领域 
及 跨 学 科 领 域 。S. Adcock 等 人 分 析 了 地 球 化 学 数据 
管理 中 存在 的 问题 及 面临 的 挑战 ,并 介绍 了 加 拿 大 地 
质 调查 局 在 地 球 化 学 数据 管理 中 采用 的 方法 和 获得 的 
£3 P. Fankhauser 等 人 以 日 耳 曼 语言 学 为 例 研究 
了 人 文科 学 研究 中 的 科学 数据 管理 问题 ;R. Downs 
分 析 了 目前 不 同学 科 领 域 科学 数据 管理 存在 的 不 足 ， 
提出 了 新 的 模型 来 管理 跨 学 科 的 科学 数据 。 

(3) 基 于 技术 的 科学 数据 管理 研究 。 在 数据 密集 
型 科学 研究 的 背景 下 ,科学 数据 也 呈现 出 数据 量 爆 发 
性 增长 .数据 结构 异 构 并 且 多 样 .数据 价值 密度 低 等 大 
数据 特征 。 利 用 各 种 信息 技术 对 科学 数据 进行 有 效 管 
理 ,实现 科学 数据 的 保存 .共享 和 利用 成 为 科学 数据 管 
理 的 重要 研究 内 容 。 基 于 技术 角度 的 科学 数据 管理 研 
究 涉及 数据 采集 .数据 传输 .数据 存储 数据 处 理 、 数 据 
分 析 .数据 检索 数据 可 视 化 等 整个 科学 数据 生命 周 
期 ,包括 硬件 设施 建设 .软件 工具 开发 和 数据 管理 平台 
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等 多 个 技术 维度 。 

(4) 基 于 图 书馆 视角 的 科学 数据 管理 研究 。 高 等 
院 校 是 科学 研究 的 主体 机 构 之 一 ,在 各 个 学 科 领 域 都 
会 产生 数量 庞大 的 科学 数据 资源 。 在 基金 资助 机 构 的 
科学 数据 管理 政策 .科研 人 员 科学 数据 存储 需求 等 内 
外 部 因素 的 驱动 下 ,高 校 图 书馆 开展 科学 数据 管理 服 
务 势 在 必 行 。 在 大 数据 环境 下 ,科学 数据 管理 服务 为 
图 书馆 的 发 展 带 来 了 新 的 机 遇 和 挑战 ,国际 学 术 界 对 
于 科学 数据 管理 活动 中 图 书馆 的 角色 定位 开展 了 诸多 
讨论 。 具 体 包括 :制定 科学 数据 管理 政策 .研究 科研 人 
员 数 据 管理 与 共享 意愿 ,提供 基于 科学 数据 生命 周期 
的 管理 服务 .科学 数据 管理 教育 等 多 个 方面 ,为 我 国 图 
书馆 开展 科学 数据 管理 提供 了 参考 。 

33 知识 基础 分 析 

二 科学 数据 管理 研究 自 1970 年 出 现 开始 ,不 断 向 各 
从 小 科 扩 散 ,目前 已 经 在 自然 科学 、 人 文 社会 科学 以 及 
路 蔚 科 领域 引起 了 广泛 关注 。 科 学 数据 管理 的 知识 基 
础 国 该 主题 所 有 文献 的 引文 合集 组 成 ,通过 文献 共 被 
引 弛 析 , 可 以 从 引用 轨迹 角度 揭示 科学 数据 管理 的 葛 


基 性 知识 来 源 。 利 用 Citespace 绘制 科学 数据 管理 研 
究 文献 共 被 引 图 谱 ,结果 如 图 6 所 示 : 
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6 ”科学 数据 管理 莫 基 性 知识 基础 


在 知识 基础 图 谱 中 ,每 个 节点 代表 一 篇 引文 ,节点 
标签 按 引 文 的 被 引 频 次 标注 , 即 字 体 越 大 ,该 引文 的 被 
引 频 次 越 高 。 为 了 深入 地 了 解 对 科学 数据 管理 研究 具 
有 关键 作用 的 文献 信息 ,选取 Google Scholar 数据 库 对 
关键 节点 进行 进一步 检索 与 分 析 ,排名 前 10 的 共 被 引 
文献 信息 如 表 2 所 示 : 


SS 表 2 科学 数据 管理 高 被 引 重要 参考 文献 
2 £g 
Ge 作者 题名 文献 来 源 出 版 年 。 被 引 频 次 “GS 被 引 频 次 
el C. Tenopir Data. sharing by scientists ; practices and. perceptions Plos One 2011 29 565 
CN 
CN C. L. Borgman The Conundrum of Sharing Research Data JASIT 2012 23 466 
[E 
A C. Tenopir Academic libraries and research data. services; Current practices and ACRL 白皮书 2012 15 19 
T] 
QS plans for the future 
PS 
a S. Corrall Bibliometrics and. Research Data Management Services; Emerging Library Trends 2013 15 149 
e Trends in Library Support for Research 
um 
ga T. Hey The fourth paradigm; data-intensive scientific discovery 图 书 2009 了 2 105 
《 L. Lyon The informatics transform ; Re engineering libraries for the data dec- International Journal 2012 11 76 
~ ade of Digital Curation 
7 B. Nelson Data sharing: Empty archives Nature 2009 10 236 
8 J.C. Wallis If We Share Data , Will Anyone Use Them? Data Sharing and Reuse Plos One 2013 10 150 
in the Long Tail of Science and Technology 
9 G. Pryor Managing Research Data 图 书 2012 10 78 
10 C.J. Savage Empirical study of data sharing by authors publishing in PLoS jour- Plos One 2009 10 208 


nals 


结合 图 6 和 表 2 可 以 看 出 ,C. Tenopir 在 2011 年 
发 表 的 Data sharing by scientists : practices and perceptions 
在 科学 数据 管理 领域 被 引 频 次 最 高 ,该 研究 选取 1 329 
位 科研 人 员 调 查 其 科学 数据 共享 的 现状 ,详细 分 析 了 
科学 数据 共享 中 存在 的 时 间 不 足 .缺乏 资金 .缺少 机 构 
文 持 等 障碍 和 困难 ,论述 了 基金 资助 机 构 、 学 科 领 域 、 
科研 人 员 年 龄 .工作 地 区 等 差异 对 科学 数据 管理 造成 


H 29 次 ,全 球 被 引 565 次 ,在 其 他 主题 领域 也 引起 了 
广泛 的 关注 。 同 时 ,C，Tenopir 在 2012 年 发 表 的 Aca- 
demic libraries and research data services ; Current practices 
and plans for the future 从 科学 数据 管理 服务 的 角度 出 
发 ,调查 了 图 书馆 在 数据 密集 型 科研 环境 下 为 科研 人 
员 提 供 科学 数据 服务 的 当前 现状 和 未 来 计划 ,该 研究 
内 容 也 被 科学 数据 管理 领域 广泛 引用 。 男 外 ,T. Hey 


Cm 


的 影响 ,提出 从 国家 政策 及 基金 层面 对 科学 数据 管理 
进行 引导 的 必要 性 。 该 论文 在 科学 数据 管理 领域 被 引 


116 


于 2009 年 出 版 的 The fourth paradigm: data -intensive 
scientific discovery 一 书 阐释 了 数据 爆炸 给 数据 获取 、 数 


ChinaXiv 合 作 期 刊 


FR, l, MEE. 多 维度 视角 下 国外 科学 数据 管理 的 研究 脉络 分 析 [」]]. 图 书 情报 工作 ,2018 ,62(13 ) :111 - 118. 


据 监管 .数据 分 析 及 数据 共享 带 来 的 挑战 ,讨论 了 云 计 
算 .协作 服务 和 知识 库 在 第 四 范式 环境 下 的 作用 。 该 
书 全 球 被 引 2 105 次 ,在 世界 范围 内 具有 重要 影响 , 同 
时 也 是 科学 数据 管理 领域 的 重要 参考 文献 之 一 。 

综 上 所 述 ,科学 数据 管理 研究 的 知识 基础 包括 3 
个 方面 :中 在 大 数据 环境 下 ,科学 数据 爆炸 式 的 增长 促 
使 科学 研究 进入 到 第 四 范式 ,数据 密集 型 科学 研究 环 
境 为 科学 数据 的 管理 研究 创造 了 外 部 条 件 ;@ 基 于 避 
免 科 学 数据 丢失 ,验证 科研 成 果 可 信 度 .提高 科研 成 果 
的 影响 力 .寻求 合作 机 会 等 一 系列 目的 ,科研 人 员 对 科 
学 数据 管理 与 共享 的 需求 不 断 提高 ,为 科学 数据 管理 
研究 带 来 了 内 部 驱动 ;@) 高 校 图 书馆 ,学 术 图 书馆 等 文 
献 情报 机 构 积极 参与 科学 数据 管理 服务 活动 ,也 不 断 
地 促进 了 科学 数据 管理 研究 的 理论 和 实践 的 发 展 。 


CO 在 数据 密集 型 科研 环境 下 ,科学 数据 旦 现 出 数据 
量 弗 发 性 增长 .数据 结构 异 构 并 且 多 样 性 ,数据 价值 密 
度 储 等 大 数据 特征 ,科学 数据 管理 研究 与 实践 对 于 数 
EDY ,科研 人 员 、 科 研 机 构 以 及 全 社会 都 具有 重要 的 
d: 笔者 采用 WOS 数据 库 和 Google Scholar 作为 数 
HERI, FUJ Citespace .Ucinet TDA 等 多 种 数据 分 析 工 
其 准时 间 分 布 图 谱 、 空 间 分 布 图 谱 .主题 演进 图 谱 及 
知 误 基 础 图 谱 4 个 维度 对 国外 科学 数据 管理 研究 现状 


UPS T AT AUT ,研究 结论 如 下 : 

EX 从 时 间 维度 看 ,目前 科学 数据 管理 研究 正 处 
于 快速 发 展期 , 在 美国 国家 自然 科学 基金 委员 会 
(NSE) .澳大利亚 研究 理事 会 ( ARC) .英国 研究 理事 会 
(RCUK) .英国 惠 康 基金 会 ( Welcome Trust) 等 基金 次 
助 机 构 的 数据 管理 政策 要 求 下 ,科研 成 果 增长 迅速 。 
国内 目前 少 有 基金 从 政策 及 制度 角度 要 求 被 资助 者 提 
交 * 数 据 管理 计划 ”, 在 科学 数据 管理 领域 还 存在 广阔 
的 发 展 空间 。 

(2) 从 空间 维度 看 ,美国 .英国 .德国 .澳大利亚 等 
开展 科学 数据 研究 较 早 的 国家 在 该 领域 具有 和 较 强 的 况 
争 优势 ,具体 包括 美国 国家 航空 航天 局 、. 谢 菲尔德 大 
学 .牛津 大 学 .约翰 霍 普 金 斯 大 学 等 科研 机 构 和 高 等 院 
校 。 这 些 数据 强国 不 仅 从 国家 层面 ,也 从 机 构 层 面 高 
度 重视 科学 数据 管理 研究 与 实践 。 

(3) 从 主题 演进 的 维度 看 ,科学 数据 管理 与 共享 
是 贯穿 该 主题 领域 的 核心 研究 内 容 。 随 着 研究 的 不 断 
深入 ,研究 内 容 从 数据 管理 发 展 到 科学 数据 生命 全 周 
期 ,并 且 在 快速 发 展期 受到 图 书 情报 学 领域 的 密切 关 


注 ,学 术 图 书馆 、 机 构 知 识 库 、 科 研 支 持 等 科学 数据 管 
理 服务 是 当前 科学 数据 管理 研究 的 核心 研究 主题 。 

(4) 从 知识 基础 维度 看 ,科学 数据 管理 研究 的 发 
展 建立 在 数据 密集 型 科研 环境 .科研 人 员 数 据 共享 与 
管理 需求 图书 情报 机 构 积 极 参 与 科学 数据 管理 服务 
三 大 基础 之 上 。 目前 科学 研究 已 经 进入 第 四 范式 ,我 
到 在 实践 领域 只 有 复旦 大 学 、 武 汉 大 学 北京 大 学 、 中 
到 科学 院 等 少数 机 构 创 建 了 数据 服务 平台 ,开展 了 科 
学 数据 管理 服务 。 

我 国 数据 管理 研究 起 步 较 晚 , 虽 然 出 现 了 中 国 科 
学 院 和 武汉 大 学 等 一 些 实力 较 强 的 科研 团队 ,但 是 与 
数据 强国 之 间 还 存在 很 大 的 差距 。 国 内 目前 对 于 该 主 
题 研 究 主要 集中 于 对 国外 机 构 开展 科学 数据 管理 活动 
的 先进 经 验 分 析 与 借鉴 方面 ,研究 内 容 相 对 单一 ,有 待 
于 从 多 个 主体 层面 .多 个 学 科 范 围 多 个 技术 角度 进行 
扩展 。 具 体 而 言 ,应 该 重视 以 下 4 个 方面 内 容 :WD 从 国 
家 、 基 金 .科研 机 构 、 出 版 物 多 个 层面 制定 完善 的 数据 
管理 政策 ,为 科学 数据 管理 研究 与 应 用 提供 强 有 力 的 
政策 支撑 ;GO 与 美国 英国、 澳大利亚 等 具有 丰富 经 验 
的 科研 机 构 和 学 术 团 体 建立 合作 关系 ,可 以 提升 我 国 
在 科学 数据 管理 领域 的 知识 产 出 能 力 ,同时 也 能 增加 
我 国 在 国际 社会 的 学 术 影响 力 ;@ 加 强人 文 社会 科学 
领域 对 科学 数据 的 管理 与 利用 ,在 积极 探讨 科学 数据 
管理 与 共享 技术 方法 的 基础 上 ,重视 其 在 全 学 科 领 域 
科学 研究 及 科研 服务 中 的 意义 ;四 重视 图 书 情报 学 领 
域 在 科学 数据 管理 活动 中 的 重要 地 位 ,学 术 图 书馆 、 高 
校 图 书馆 及 高 校 信息 管理 院 系 应 该 丰富 科学 数据 管理 
研究 内 容 、 创 新 科学 数据 管理 服务 .重视 科学 数据 管理 
人 才 培 养 , 促 进 国 内 科学 数据 管理 的 国际 化 进程 。 

本 文 还 存在 一 些 研 究 局 限 : 中 选用 Web of Science 
中 的 SCI SSCI 和 A&HCI 作为 数据 来 源 , 从 国际 核心 
期 刊 角 度 出 发 对 科学 数据 管理 研究 现状 进行 了 分 析 ， 
未 与 国内 核心 期 刊 数据 进行 全 面 对 比 ;@) 学 术 论 文 作 
为 科学 研究 成 果 能 够 从 一 定 程度 上 表征 科学 数据 管理 
主题 的 研究 与 发 展现 状 , 未 能 与 科学 数据 管理 实践 相 
结合 进行 多 源 数据 综合 分 析 。 这 也 将 是 本 主题 今后 进 
一 步 研 究 的 方向 。 
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Abstract. [ Purpose/significance] Under the background of big data, the research of scientific data management 


has important theoretical and practical significance. [ Method/process] Based on WoS and Google Scholar databases, the 


paper utilized Citespace, Ucinet, TDA and other analysis tools to explore the evolution of scientific data management re- 


search in international academic community. [ Result/conclusion | The paper fully revealed the history, current situation 


and development direction of scientific data management research from four aspects including time distribution map, spa- 


tial distribution map, thematic evolution map and knowledge base map. Furthermore, the paper put forward relevant pro- 


posals according to the domestic research status quo. 
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